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转换 概率 和 词 长 期 待 对 语音 统计 学 习 的 影响 
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语音 统计 学 习 指 个 体 在 加 工人 工 语言 过 程 中 , 可 以 追踪 音节 间 的 转换 概率 实现 切 分 语 流 、 提 取 词 ( 语 ) 的 过 


程 。 本 研究 采用 2( 转 换 概率 : 高 转换 概率 、 低 转换 概率 ) x 2( 词 长 期 待 : 两 音节 、 三 音节 ) 的 混合 实验 设计 来 考察 


转换 概率 和 词 长 期 待 对 语音 统计 学 习 的 影响 , 转换 概率 是 被 试 间 变 
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在 低 转换 概率 人 工 语言 的 三 音节 
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词 长 期 待 是 被 试 内 变量 。 事后 检验 发 现 , 仅 


迫 选 条 件 下 ,被 试 没有 表现 出 显著 的 学 习 效 果 。 事先 对 比 发 现 , 在 学 习 低 转换 概率 


的 人 工 语言 后 , 被 试 完成 三 音节 迫 选 试 次 的 成 绩 ! 


率 人 工 语言 被 试 的 成 绩 也 显著 低 于 学 习 高 转换 概率 被 试 


体 语音 统计 学 习 的 效果 。 
关键 词 语音 统计 学 习 , 转换 概率 , HEB 
分 类 号 B842 
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1 前 言 
统计 学 习 机 制 指 个 体能 够 从 外 界 输 入 的 时 间 
言 息 和 空间 信息 中 发 现 概率 规律 并 以 此 规律 学 习 


新 事物 (Arciuli & Simpson, 2012; Batterink et al., 
2015; Bogaerts et al., 2016; Frost et al., 2015; Frost 
et al., 2020; Saffran et al., 1996; Saffran & Kirkham, 
2018; Siegelman, Bogaerts, & Kronenfeld et al., 
2018)， 大 量 实验 已 经 证 明 , 成 人 、 儿 童 甚 至 新 生 儿 
都 具有 此 项 “天 赋 ”(Bosseler et al., 2016; Kidd & 
Arciuli, 2016; Wang & Saffran, 2014; FX), F 
丹 ，2018)。 统 计 学 习 中 的 核心 概念 是 转换 概率 
(transitional probabilities，TPs)， 指 的 是 相 邻 出 现 元 
素 间 的 概率 关系 。 比 如 , 在 词组 “pretty boy”, 音 
节 “pre” 和 “tty” 是 词 内 音节 ， 前 一 个 音节 出 现 后 , 后 
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著 低 于 两 音节 迫 选 试 次 ; 在 三 音节 迫 选 试 次 中 , 学习 低 转换 概 
的 成 绩 。 以 上 结果 说 明 ,转换 概率 和 词 长 


待 共 同 影响 个 


ee 


一 个 音节 出 现 的 几率 较 大 ,因此 转换 概率 较 高 ; TH 
反 ， 音 节 "“tty"” 和 "boy" 是 词 间 音节 ， 前 一 个 音节 出 现 
后 ， 后 一 个 音节 还 可 能 是 “girl”“dog” 等 ， 因 此 转换 
概率 较 低 。 人 研究 者 普遍 认为 个 体 将 转换 概率 较 低 的 
位 置 视 为 语 流 中 的 词 边 界 , 并 且 将 转换 概率 较 高 的 
音节 组 合作 为 词 的 语音 表征 存储 在 记忆 中 (Erickson 
et al., 2014; Estes et al., 2007)， 这 类 人 研究 也 被 称 作 
统计 学 习 或 概率 词 切 分 to 

在 语音 统计 学 习 研 究 中 ，Saffran 等 (1996) 首 次 
考察 个 体 利用 概率 信息 切 分 语 流 的 过 程 ， 如 图 1, 
作者 使 用 12 个 音节 合成 4 个 三 音节 词 ( 每 个 大 写字 
母 代 表 一 个 音节 )， 随 后 以 三 音节 词 为 单位 按照 伪 
随机 的 方式 合成 人 工 语言 , 不 仅 要求 每 个 词 不 能 连 
续 出 现 两 次 ， 还 在 合成 人 工 语 言 过 程 中 避免 了 重 


一 


语音 


(PAPD)。 


! 统计 学 习 任 务 可 以 分 为 听觉 和 视觉 两 种 形式 , 但 在 听觉 模 态 下 还 包括 音调 (Saffran, 2010), 、 声 音 (Siegelman, Bogaerts, Elazar et al., 
2018) 等 亚 类 的 统计 学 习 人 研究 ， 本 研究 考察 的 是 以 音节 为 载体 的 统计 学 习 机 制 , 学 者 普遍 以 语音 统计 学 习 (verbal statistical learning) 


来 进行 指 代 。 
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音 、 停 顿 等 韵律 信息 。 实 验 采 用 “学 习 - 再 认 ” 范 式 ” 
先 向 8 个 月 大 的 婴儿 呈现 2 分 钟 的 人 工 语言 ， 随 后 
分 别 向 他 们 呈现 目标 词 (合成 人 工 语言 的 原始 三 音 
$i, W ABC) 和 跨 界 词 *( 由 前 一 个 目标 词 后 两 个 
音节 和 相 邻 后 一 个 目标 词 第 一 个 音节 组 成 的 词 ， 如 
BCD，EFA)。 结 果 发 现 ， 婴 儿 对 跨 界 词 注 意 时 间 更 
长 ， 对 目标 词 注 意 时 间 更 短 ， 表 现 出 新 奇效 应 。 作 
者 推断 ,， 目标 词 ABC 后 面 可 能 出 现 DEF GHI 或 
JKL, 音节 C 后 面 接任 意 一 个 音节 的 转换 概率 均 为 
1/3， 明 显 低 于 目标 词 内 音节 的 转换 概率 (为 1)， 因 
而 婴儿 会 在 音节 C 后 进行 切 分 ,将 音节 组 ABC E 
为 词 储存 在 记忆 中 ,但 由 于 跨 界 词 没 有 被 切 分 出 来 ， 
婴儿 会 表现 出 新 奇效 应 。 
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图 1 语音 统计 学 习 任 务 人 工 语言 合成 规则 示意 图 


根据 统计 学 习 的 理论 框架 ， 转 换 概 率 越 高 ， 音 
节 之 间 的 连结 关系 越 紧 密 , 个 体 对 它们 的 记忆 会 更 
加 牢固 ， 即 学 习 效 果 会 更 好 。 假 设 A、B 两 种 人 工 
语言 中 仅 有 目标 词 的 转换 概率 有 所 区 别 , 在 人 工 语 
AAt, 目标 词 的 转换 概率 为 1， dE A TIA B 中 ， 
目标 词 的 转换 概率 为 0.6， 两 种 人 工 语言 中 非 词 的 
转换 概率 均 为 0。 如 果 转 换 概率 是 影响 统计 学 习 效 
果 的 核心 因素 ,同时 人 工 语 言 A 中 目标 词 和 非 词 之 
间 转 换 概率 的 差异 更 大 , 那么, 被 试 切 分 人 工 语 言 
A 的 效果 应 该 比 切 分 人 工 语言 B 的 效果 更 好 。 虽 然 
大 量 研究 都 证 实 了 个 体 可 以 通过 目标 词 和 跨 界 词 
转换 概率 的 对 比 关系 切 分 语 流 (Estes et al., 2015; 
Estes & Lew-Williams, 2015; Palmer & Mattys, 2016; 
Potter et al, 2017)， 但 尚未 有 研究 考察 当 目 标 词 的 
转换 概率 发 生变 化 时 ,被 试 完 成 迫 选 测验 的 成 绩 是 
否 会 发 生变 化 。 对 这 一 问题 进行 考察 可 以 与 现 有 相 


”在 婴儿 实验 中 常 使 用 转 头 偏好 任务 , 成 人 实验 中 常用 使 用 二 
选 一 的 迫 选 任务 ， 两 种 任务 本 质 上 均 为 再 认 范式 ， 由 于 本 研究 


被 试 为 成 人 ， 以 迫 选 任务 作为 测验 任务 。 
”统计 学 习 人 研究 中 通常 会 有 两 类 干扰 刺激 ,一 类 是 此 处 描述 的 
跨 界 词 (partwords)， 另 一 类 被 称 作 非 词 nonwords)， 指 的 是 词 内 
部 音节 没有 相互 连接 的 可 能 性 ， 比 如 AEL, 这 类 词 内 部 的 转换 
概率 为 0。 


关 研 究 形成 互补 ,进一步 证 明 个 体 确实 是 通过 计算 
音节 间 的 转换 概率 来 切 分 连续 语 流 ， 并 同时 证 明 转 
换 概率 具有 心理 现实 性 。 目 前 ， 仅 有 一 篇 视觉 统计 
学 习 研 究 考 察 当 目标 词 或 结构 的 转换 概率 变化 时 ， 
个 体 的 切 分 效果 有 无 变化 。Bogaerts 等 (2016) 在 实 
验 中 设置 了 0.6、0.8 和 1.0 三 种 转换 概率 强度 , 结 
果 发 现 ， 当 转换 概率 从 0.6 提升 到 0.8 时, 被 试 的 正 
确 率 仅 有 小 幅度 的 提高 , 但 从 0.8 提升 到 1.0 时 ,被 
试 的 正确 率 有 了 显著 提高 。 虽然 视觉 统计 学 习 和 语 
音 统计 学 习 都 认可 转换 概率 对 学 习 效 果 的 决定 作 
JH, 但 一 些 研究 发 现 两 种 模 态 下 的 统计 学 习 结 果 相 
关 较 低 (Siegelman & Frost, 2015)， 对 于 个 体 发 展 来 
说 ,视觉 统计 学 习 能 力 随 着 年 龄 逐渐 提高 ， 而 听觉 
形式 下 则 没有 明显 变化 (Arciuli & Simpson, 2011; 
Raviv & Arnon, 2018). Emberson 等 (2019) 也 发 现 ， 
对 于 同一 年 龄 段 婴 儿 来 说 ,听觉 统计 学 习 能 力 要 强 
于 视觉 统计 学 习 能 力 ， 听 觉 模 态 下 的 统计 学 习 能 
可 能 要 发 展 得 更 早 、 更 快 。 从 以 上 分 析 来 看 ， 难 以 
将 视觉 统计 学 习 结果 直接 推广 到 听觉 模 态 ， 而 在 听 
觉 模 态 下 考察 转换 概率 对 统计 学 习 效 果 的 影响 , 不 
仅 有 助 于 探究 这 一 模 态 下 统计 学 习 过 程 的 特点 ， 也 
有 助 于 在 一 般 领 域 下 揭示 其 普遍 性 和 独特 性 。 
研究 者 普遍 认为 , 个 体 可 以 通过 计算 音节 间 的 
转换 概率 来 实现 统计 学 习 过 程 ， 因此 ,转换 概率 因 
素 可 以 看 作 是 自 下 而 上 形式 的 信息 。 另 一 方面 ,也 
有 研究 发 现 ， 自 上 而 下 的 信息 ， 比 如 语言 经 验 ,也 
会 影响 个 体 的 概率 词 切 分 表现 ( 见 : 于 文 勃 等 , 2021; 
Bonatti et al., 2005; Bosseler et al., 2016; Gómez et 
al., 2017; Onnis & Thiessen, 2013; Palmer et al., 2019; 
Poulin-Charronnat et al., 2016; Saksida et al., 2017). 
在 词汇 知识 方面 , Palmer 和 Mattys (2016) 在 人 工 语 
言 中 般 入 了 被 试 已 经 掌握 的 词 ， 比 如 “tomorrow”， 
随后 , 将 此 条 件 下 被 试 的 测试 成 绩 与 不 包含 被 试 熟 
知 词 条 件 的 成 绩 进 行 比较 。 结 果 发 现 , 在 前 一 种 条 
件 中 , 被 试 的 迫 选 正 确 率 显 著 高 于 后 者 ， 这 说 明 ， 
语言 经 验 (已 经 掌握 的 词 ) 能 够 促进 个 体 在 学 习 阶 段 
切 分 语 流 。 在 词汇 的 韵律 方面 Lew-Williams 和 
Saffran (2012) 以 两 组 英语 母语 婴儿 为 被 试 , 在 标准 
的 统计 学 习 任 务 之 前 增加 了 前 学 习 阶 段 ， 一 组 婴儿 
听 一 段 全 部 由 三 音节 词组 成 的 人 工 语言 ( 记 为 a)， 
另 一 组 婴儿 听 一 段 全 部 由 两 音节 词组 成 的 人 工 语 
言 ( 记 为 b)。 正 式 学 习 材 料 也 是 两 种 , 分 别 由 三 音 市 
词 和 两 音节 词组 成 (分 别 记 为 A 和 了 B)。 结 果 发 现 , 前 
学 习 阶 段 听 过 人 工 语 言 a 的 婴儿 仅 在 人 工 语 言 A 条 
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件 下 分 辨 目标 词 和 跨 界 词 ， 而 学 习 过 人 工 语言 b 的 
婴儿 仅 在 人 工 语言 B 条 件 下 能 够 区 分 两 类 选项 ,这 
说 明 ， 前 学 习 阶 段 使 得 婴儿 产生 了 对 词 长 的 预期 ， 
会 引导 他 们 完成 统计 学 习 任 务 。 根 据 自 然 音 布 理论 ， 
双 音 市 词 符合 汉语 普通 话 的 标准 韵律 模板 ,因此 普 
通话 母语 者 有 较 强 的 双 音 节 倾 向 , 在 日 常生 活 中 更 
偏爱 使 用 双 音 节 词 ( 汉 胜 利 , 1998)。 比 如 ， 当 儿童 被 
问 到 今年 几 岁 的 时 候 ， 他们 普遍 会 回答 “8 岁 ”， 而 
非 “8”。 从 计量 语言 学 角度 看 ,在 《汉语 大 词典 》 中 ， 
双 音 节 词 占 比 68.83%, 也 是 不 同音 节 数 词 中 最 多 
的 (李斌 , 刘 雪 扬 , 2018)。 那 么 ， 如 果 以 普通 话 母 语 
者 为 实验 对 象 ,被 试 对 两 音节 词 的 词 长 期 待 也 会 影 
响 他 们 完成 语音 统计 学 习 任 务 , 笔者 推测 学 习 阶段 
被 试 对 两 音节 目标 词 表 征 更 为 牢固 , 在 两 音节 词 迫 
选 试 次 中 回答 正确 率 更 高 。 
转换 概率 和 词 长 期 待 两 个 因素 分 别 属于 自 下 
而 上 和 自 上 而 下 形式 的 信息 ,虽然 不 乏 单 独 考察 某 
一 个 因素 对 统计 学 习 机 制 影 响 的 研究 , 但 还 没有 研 
究 在 同一 个 实验 内 同时 设计 这 两 个 变量 ,本 研究 通 
过 编制 两 种 人 工 语言 来 同时 考察 这 两 类 因素 对 统 
计 学 习 机 制 的 影响 。 为 了 考察 转换 概率 因素 ,本 研 
3% (ii HE Bogaerts, Siegelman il Frost (2016) 的 方法 设 
置 转换 概率 不 同 的 两 种 人 工 语言 作为 材料 ,在 高 转 
换 概 率 (high transitional probability, HTP) 的 人 工 语 
言 中 目标 词 的 转换 概率 为 1, 在 低 转换 概率 (low 
transitional probability, LTP) 的 人 工 语言 中 目标 词 的 
转换 概率 为 0.6。 每 个 人 工 语 言 都 由 两 音节 词 和 三 
音节 词组 成 ,前 者 符合 词 长 期 待 , 后 者 违背 词 长 期 
待 。 实 验 采用 2( 转 换 概率 : HTP. LTP) x 2( 词 长 期 
待 : 两 音节 、 三 音节 ) 的 混合 实验 设计 ,前 者 为 被 试 
间 变 量 , 后 者 为 被 试 内 变量 , 测试 阶段 使 用 的 是 二 
选 一 迫 选 任务 ， 因 变量 为 被 试 的 正确 率 。 参 照 以 往 
研究 ,首先 要 进行 事后 检验 “， 通 过 进行 单 样本 上 检 
验 比 较 组 平均 正确 率 和 随机 水 平 的 差异 (0.5) 来 判 
TE 4 种 条 件 被 试 能 否 完成 统计 学 习 任 务 。 在 本 研 
SEP, 还 将 进行 事先 对 比 ， 相 对 于 事后 检验 ， 事先 
对 比 (planned contrasts) 这 种 检验 方式 不 仅 可 以 对 精 
细 的 实验 假设 进行 验证 ,， 还 可 以 避免 a 错误 的 增加 ， 
影响 统计 检验 力 。 而 且 ， 事先 对 比 这 一 检验 思想 
与 传统 的 事后 检验 没有 必然 的 联系 ， 即 使 事后 检验 


^ 一般 来 说 事后 检验 是 在 方差 分 析 中 对 多 个 水 平 进行 两 两 比较 ， 


但 在 本 人 研究 中 , 事后 检验 与 事先 对 比 相对 ， 指 的 是 没有 提出 明 
确 的 实验 假设 后 对 实验 数据 进行 分 析 , 包括 方 差分 析 、T 检验 、 
卡 方 检验 等 一 系列 统计 检验 方法 。 


不 显著 , 仍旧 可 以 使 用 事先 对 比 (Field et al., 2012; 
Schad et al., 2020; 舒 华 ， 张 亚 旭 , 2008)。 

基于 前 言 的 前 述 ， 低 转换 概率 意味 着 目标 词 内 
部 音节 间 的 连结 较 弱 ， 三 音节 目标 词 不 符合 普通 话 
母语 者 的 词 长 期 待 , 这 两 个 水 平 对 于 被 试 来 说 是 难度 
较 大 的 实验 条 件 ， 由 此 形成 了 3 个 事先 假设 : (1) 被 
试 在 学 习 LTP 条 件 的 人 工 语言 中 , 受 词 长 期 待 影 响 ， 

音节 和 迫 选 正 确 率 会 高 于 三 音节 和 迫 选 试 次 ; (2) 在 违 
背 普通 话 词 长 期 待 的 三 音节 迫 选 试 次 中 ,受到 转换 
概率 的 影响 , 在 LIP 条 件 下 被 试 的 正确 率 会 显著 低 
于 HIP 条 件 下 的 正确 率 ; (3) 在 LIP 人 工 语言 的 三 音 
节 迫 选 试 次 中 , 被 试 的 迫 选 正确 率 要 显著 低 于 在 
HTP 人 工 语言 的 两 音节 迫 选 试 次 。 


2 方法 
2.1 pit 


64 名 南京 在 校 大 学 生 ( 男 19 名 , w 45 名 ) 参 加 
了 本 次 实验 , 年 龄 为 18 至 30 岁 (M = 20.91), 均 为 
ARI, 非 外 国语 专业 , 没有 接受 过 正规 的 音乐 训 
练 。 所 有 被 试 被 随机 分 配 到 高 转换 概率 组 和 低 转 换 
概率 组 ， 其中, 高 转换 概率 组 33 人 ， 低 转换 概率 组 
31 人 。 由 于 3 名 高 转换 概率 组 和 1 名 低 转 换 概率 
被 试 的 实验 程序 中 断 ， 最 后 两 组 被 试 量 均 为 30 人 。 
被 试 在 实验 前 了 解 了 实验 内 容 并 签订 了 知情 同意 
P, 结束 后 获得 少量 报酬 。 
22 ”材料 

在 语音 统计 学 习 的 实验 中 ,要 求 所 使 用 的 词 和 
音节 均 无 任何 意义 。 不 同 于 印 欧 语言 , 汉语 除 轻 声 
以 外 的 所 有 音节 都 有 声调 。 参 照 Gomez 等 (2017) 
的 研究 , 将 所 有 音节 限定 为 第 一 声 ， 即 选 定 的 音节 
在 第 一 声 时 为 无 意义 音节 ， 当 换 用 其 他 声调 时 为 有 
意义 音节 ， 比 如 音节 “nuel1” 无 意义 , 但 匹配 第 四 声 
时 “nue4” 为 有 意义 音节 。 实 验 中 使 用 的 无 意义 音节 
和 词 见 表 1。 这 样 做 有 三 方面 考虑 ， 首先， 如果 每 个 
音节 都 包括 不 同 声调 , 那么 , 音 段 、 声 调和 音节 ( 音 
节 可 以 分 成 音 段 和 声调 两 个 部 分 ， 比 如 音节 “chen2” 
的 音 段 结构 为 “chen”， 声 调 为 第 二 声 ) 会 有 不 同 的 
转换 概率 ,无 形 中 增加 了 额外 变量 。 其 次 ,普通 话 
中 不 同 声调 音节 时 长 不 一 , 第 一 声 和 第 三 声音 节 时 
Kmk, 第 四 声 偏 短 ( 宋 雅 男 , 何 伟 ，2005; 1393 vh 
等 , 2001)， 如 果 将 不 同 声调 的 音节 在 时 长 上 进行 标 
Wk, 听 感 上 会 有 一 些 奇怪 。 最 后 考虑 到 如 果 选 用 
不 同 声调 的 音节 , 那么 第 三 声 为 曲折 调 ， 第 一 声 为 
平 调 , 无 法 避免 声调 调 型 对 统计 学 习 结 果 的 干扰 。 


n LB 


568 心 p 


学 dk 


第 53 卷 


表 1 合成 人 工 语言 的 音节 、 国 际 音标 以 及 本 实验 中 的 目标 词 、 非 词 


音节 音标 TON 音标 音节 音标 目标 词 非 词 
nue nye rua zua mei mei nueruote nuegeilai 
ruo zuo dia tia rou zou liageirua liafote 
te thy fo fo se SY diafolai diaruorua 
lia lra lai lar remei rerou 
gei kei re ZY rouse meise 
实验 中 的 人 工 语言 
HTP 和 LTP 中 Mae diafolai í ; 
的 目标 词 iageirua afolai nueruote remei rouse 
lialairuo diatese nueruamei rese roumei 
LTP 中 的 PI ; 
: liasefo diaseruo nuelaigei refo rougei 
填充 词 
liatemei diaruase nuemeifo regei rouruo 
学 习 阶 段 测试 阶段 
你 觉得 哪个 词 更 熟悉 ? 
+ => 1. 第 一 个 记 
2. 第 二 个 词 
ce td 
(HTP: 187200 ms LTP: 312000 ms) 
图 2 Aiea tia AE) ASE aS AICP) 
选 定 音 节 后 , 由 一 名 女性 普通 话 母 语 者 在 专业 词 来 降低 目标 词 的 转换 概率 ,LTP 条 件 下 目标 词 的 


录音 室 进 行 录音 , 采样 率 为 44100 Hz。 为 排除 录音 
者 在 单独 录制 每 一 个 音节 时 产生 的 重读 或 停顿 现 
象 带 来 的 额外 影响 , 将 目标 音节 放 在 两 个 音节 之 间 ， 
并 要 求 录音 者 一 次 性 录制 3 个 音节 ， 如 在 音节 串 
nvel-ruol-geil "F, ruol 为 目标 音节 ， 所 有 音节 均 为 
第 一 声 。 接着 , 采用 Praat 软件 切 分 出 目标 音节 ,并 
对 音节 进行 标准 化 , 时 长 300 ms, 平均 基 频 266 Hz, 
音 强 70 dB， 最 后 通过 Praat 脚本 以 目标 词 为 单位 合 
成 人 工 语言 。 

合成 目标 词 后 , 需要 合成 转换 概率 不 同 的 两 种 
ATHA o Æ HTP 的 人 工 语言 中 , 每 个 目标 词 出 现 
48 次 ， 共 包括 240 个 目标 词 ， 同 时 保证 同一 个 目标 
词 不 连续 出 现 两 次 。 另 外 ,每 个 词 在 人 工 语言 中 前 
半 部 分 和 后 半 部 分 分 布 均匀 ， 从 而 避免 某 一 个 目标 
词 在 前 段 或 后 段 多 次 出 现 带 来 首 因 效 应 或 近 因 效 
应 , 最 终 HTP 条 件 人 工 语言 时 长 为 3 分 10 秒 。 在 


转换 概率 为 0.6, 对 每 个 目标 词 需要 替换 32 个 填充 
词 。 构 造 填充 词 有 3 个 原则 : (1) 填 充 词 的 所 有 音节 
均 来 自 表 1 中 的 13 个 无 意义 音节 ， 从 而 避免 填充 词 
产生 的 额外 认 知 负荷 。(2) 对 于 三 音节 填充 词 ， 保 证 
第 一 个 音节 与 目标 词 保持 一 致 ， 第 二 个 音节 有 2 种 
可 能 ， 分 别 为 另外 两 个 三 音节 词语 的 最 后 一 个 音节 ， 
或 者 是 另外 两 个 两 音节 词语 的 最 后 一 个 音节 ; 填充 
词 第 三 个 音节 可 能 是 一 个 两 音节 词 的 最 后 一 个 音 
节 , 或 者 两 外 两 个 三 音节 词 的 第 二 个 音节 。(3) 对 于 
两 音节 填充 词 , 保证 第 一 个 音节 与 目标 词 第 一 个 音 
节 一 致 ， 第 二 个 音节 为 另外 一 个 两 音节 词语 的 最 后 
一 个 音节 , 或 者 是 三 音节 目标 词 的 第 二 个 音节 ， 填 
充 词 示 例 见 图 2C 上 )。 在 目标 词 出 现 次 数 上 , LTP 人 
工 语言 与 HTP 条 件 相 同 , 均 出 现 48 次 , 但 LTP 人 
工 语言 的 转换 概率 降低 到 0.6， 其 时 长 为 5 分 10 秒 。 

在 迫 选任 务 中 ,每 个 试 次 的 两 个 选项 分 别 为 目 


构造 LTP 人 工 语言 时 ， 先 合成 一 个 中 介 人 工 语言 ， 
其 中 每 个 目标 词 出 现 80 次 ,共计 400 ie), 其 他 规则 
与 HTP 一 致 。 然 后 仿照 Bogaerts, Siegelman 和 Frost 
(2016) 的 实验 设计 , 通过 将 部 分 目标 词 蔡 换 为 填充 


标 词 和 非 词 ， 其 中 , 非 词 的 每 个 音节 均 来 源 于 不 同 
的 目标 词 ， 非 词 音节 间 的 转换 概率 为 0。 在 每 个 迫 
选 试 次 中 ,两 个 选项 的 长 度 相同 ， 即 三 音节 目标 词 
只 和 三 音节 非 词 进行 迫 选 ,两 音节 目标 词 只 和 两 音 
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影响 ， 每 个 试 次 会 调整 选项 顺序 呈现 两 次 ， 随 机 播 
放 共 计 20 个 试 次 , 其 中 三 音节 人 迫 选 12 个 试 次 ,两 
音节 迫 选 8 个 试 次 。 
2.3 ”实验 程序 

实验 程序 参照 经 典 统计 学 习 范 式 , 分 为 学 习 阶 
段 和 测试 阶段 ， 如 图 2( 下 )。 在 学 习 过 程 开 始 前 ， 主 
试 讲解 实验 指导 语 ， 先 向 被 试 讲 解 无 意义 词 的 概念 ， 
随后 要 求 被 试 认真 听 人 工 语言 ， 并 提示 在 人 工 语言 
播放 之 后 会 要 求 被 试 完成 测验 任务 ， 人 工 语言 播放 
过 程 中 音量 恒定 。 学 习 阶 段 结束 后 ， 向 被 试 讲述 人 迫 
选 测 验 的 含义 ， 每 个 试 次 会 连续 播放 两 个 声音 刺激 ， 
中 间 有 500 ms 间隔 ,播放 之 后 屏幕 会 用 文字 的 形 
式 要 求 被 试 选择 出 哪个 声音 刺激 听 起 来 更 为 熟悉 ， 
数字 “1” 键 代表 第 一 个 选项 ， 数 字 “2” 键 代表 第 二 个 
选项 。 正 式 的 迫 选 试 次 呈现 前 ， 有 两 个 练习 试 次 ， 
由 主 试 协助 被 试 完成 。 实 验 全 程 被 试 佩戴 耳机 ， 
HTP 条 件 下 大 约 需 要 10 分钟 完 成 实验 , LTP 条 件 下 
大 约 需 要 15 分 钟 。 


3 结果 与 分 析 


3.1 事后 检验 : 4 种 条 件 被 试 正确 率 检验 

对 被 试 在 4 种 条 件 下 (高 转换 概率 两 音节 词 迫 
yt, 高 转换 概率 三 音节 人 迫 选 , 低 转换 概率 两 音节 和 迫 
选 和 低 转 换 概率 三 音节 迫 选 ) 判 断 的 正确 率 进行 统 
ib, 并 与 随机 水 平 (0.5) 进 行 单 样本 t 检验。 结果 显 
示 , FE HTP 条件 中 , 三 音节 迫 选 试 次 中 被 试 的 正确 
率 显著 高 于 随机 水 平 ,n= 30, M = 0.61, t (29) = 3.88, 
差 值 95% CI = [0.05, 0.17], p = 0.001, d = 0.71; 两 
音节 迫 选 试 次 中 被 试 的 正确 率 显著 高 于 随机 水 平 ， 
n= 30, M = 0.62, t (29) = 3.04, 差 值 95% CI = [0.04, 
0.20], p = 0.005, d= 0.56。 最 后 对 HTP 条 件 下 被 试 
的 总 体 正确 率 进 行 检验 ， 发 现 迫 选 正确 率 显著 高 于 
随机 水 平 ,n = 30, M = 0.61, t (29) = 4.16, 差 值 95% 
CI = [0.06 0.17], p < 0.001, d = 0.76, 

fr LTP 人 工 语 言 分 析 中 ， 发 现在 两 种 迫 选 条 件 
下 结果 出 现 差异 。 三 音节 人 迫 选 试 次 中 被 试 的 迫 选 正 
确 率 与 随机 水 平 差异 未 达到 显著 水 平 , n = 30, M = 
0.54, t (29) = 1.47, 差 值 95% CI = [-0.01, 0.09], p = 
0.152, d = 0.27; 两 音节 人 迫 选 试 次 中 被 试 的 正确 率 
显著 高 于 随机 水 平 , n = 30, M = 0.61, t (29) = 3.41, 
差 值 95% CI = [0.05, 0.18], p = 0.002, d = 0.62。 对 
被 试 在 LTP 条 件 下 的 整体 成 绩 进 行 检 验 后 发 现 迫 
选 的 正确 率 显 著 高 于 随机 水 平 , n = 30, M = 0.57, 


t (29) = 2.86， 差 值 95% CI = [0.02, 0.11], p = 0.008, 
d= 0.52。 

4 种 条 件 下 被 试 的 正确 率 如 图 3。 这 些 结果 说 
AA, 虽然 被 试 在 学 习 HTP 和 LTP 两 种 人 工 语言 后 
都 可 以 较 好 地 在 迫 选 任务 中 正确 区 分 目标 词 和 非 
W, 但 在 学 习 目 标 词 内 转换 概率 较 低 的 人 工 语言 过 
程 中 , 被 试 对 于 不 符合 词 长 期 待 的 目标 词 的 学 习 效 
果 较 差 。 
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图 3 四 种 条 件 下 被 试 迫 选 测验 的 正确 率 


3.2 ”事后 检验 :转换 概率 和 词 长 期 待 的 方差 分 析 

在 R 语言 环境 (Revelle，2016) 下 ， 以 转换 概率 
和 词 长 期 待 作为 自 变 量 ， 以 被 试 迫 选 测验 的 正确 率 
为 因 变 量 建立 线性 模型 ， 分 别 对 两 个 因素 的 主 效应 
和 交互 作用 进行 检验 。 结 果 发 现 , 词 长 期 待 的 主 效 
应 未 达到 显著 水 平 , B = 0.02, t= 1.42, p = 0.157; 转 
换 概 率 的 主 效应 未 达到 显著 水 平 , B = -0.02, t = 
-1.37, p = 0.172。 转 换 概率 和 词 长 期 待 的 交互 作用 
也 没有 达到 显著 水 平 ,B = 0.02, t= 1.22, p = 0.222。 
线性 模型 参数 如 表 2。 


表 2 转换 概率 和 词 长 期 待 对 统计 学 习 效果 影响 的 方差 


分 析 结 果 
自 变 量 estimate SE t p 
BE 0.59 0.01 41.004 <0.001** 
TP —0.02 0.01 -1.37 0.172 
词 长 期 待 0.02 0.01 1.42 0.157 
TPx 词 长 期 待 0.02 0.01 1.22 0.222 


3.3 ”事先 对 比 

根据 前 言 所 阐述 的 内 容 , 假设 在 LTP 条 件 下 ， 
个 体 对 两 音节 人 迫 选 试 次 正确 率 显著 高 于 三 音节 迫 
选 试 次 的 正确 率 ; 在 三 音节 迫 选 试 次 中 ,HTP 条 件 
下 的 正确 率 显著 高 于 LIP fT; LTP 条 件 的 三 音节 
迫 选 试 次 正确 率 显著 低 于 HTP 条 件 的 两 音节 试 次 
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迫 选 正确 率 。 在 R 环境 下 , 使 用 线性 回归 通过 自 定 
义 对 比 和 矩阵 完成 检验 。 

结果 发 现 , 在 三 音节 迫 选 试 次 中 , 被 试 在 LTP 
条 件 下 的 正确 率 显著 低 于 HTP 条 件 , B = -0.08, t = 
~2.05, p = 0.041; 在 LTP 条件 下 ,被 试 两 音节 人 迫 选 
试 次 的 正确 率 边 缘 显 著 高 于 三 音节 迫 选 试 次 的 正 
HAX, B = 0.08, t= 1.87, p = 0.062; 最 后 , 被 试 在 学 
2] HTP 人 工 语言 后 对 两 音节 迫 选 试 次 的 判断 情况 
显著 高 于 被 试 学 习 LTP 人 工 语言 后 对 三 音节 迫 选 
试 次 的 判断 B = 0.08, t = 1.97, p = 0.049, 线性 模型 
结果 如 表 3。 


表 3 事先 对 比 结果 


& Saffran，2003)。 比 如 ,在 人 工 语言 ABC-DEF- 
ABC-GHI……- 中 ， 虽 然 目 标 词 ABC 内 的 转换 概率 
高 于 跨 界 词 CDE, 但 音节 C 后 会 出 现 3 种 目标 词 
(人 工 语 言 由 4 个 目标 词 合 成 )， 因 此 跨 界 词 CDE 在 
人 工 语 言 中 出 现 的 频次 仅 为 目标 词 ABC 的 三 分 之 
—, 那么 ,即使 实验 结果 发 现 被 试 能 够 在 迫 选 任务 
中 区 分 目标 词 和 路 界 词 ， 也 无 法 确定 是 因为 两 类 词 
的 转换 概率 不 同 还 是 频次 不 同 。 更 为 重要 的 是 , 已 
有 研究 发 现 ， 在 语言 中 词 频 是 影响 词 切 分 和 词语 习 
得 的 因素 (Frost et al., 2019)。 笔 者 通过 改进 实验 范 
式 实 现 了 考察 不 同 转换 概率 是 否 会 影响 统计 学 习 
的 目标 。 在 设计 不 同 转换 概率 人 工 语言 的 基础 上 ， 
通过 增加 填充 词 保证 了 目标 词 出 现在 两 种 人 工 语 


言 中 的 频次 相同 ( 均 为 48 次)， 而 且 高 低 转换 概率 条 


自 变量 estimate SE t p 

TUR 0.59 0.01 41.04 « 0.001** 

对 比 1 —0.08 0.04 -2.05 0.041* 

对 比 2 0.08 0.04 1.87 0.062 

对 比 3 0.08 0.04 1.97 0.049* 
4 讨论 


本 研究 在 经 典 的 统计 学 习 范 式 下 ,考察 转换 概 
率 和 被 试 的 词 长 期 待 对 语音 统计 学 习 任 务 的 影响 。 
结果 发 现 , 在 HTP 条 件 下 , 无 论 是 符合 词 长 期 待 
(两 音节 人 迫 选 ) 还 是 不 符合 词 长 期 待 ( 三 音节 迫 选 ) 的 
情况 ,被 试 都 可 以 较 好 地 分 辨 目标 词 和 非 词 ， 表现 
出 明显 的 学 习 效 应 ; 但 在 LTP 条 件 下 , 被 试 在 不 符 
合 词 长 期 待 的 迫 选 试 次 中 无 法 有 效 分 辨 两 类 词语 。 
此 外 ,事先 对 比 结果 发 现 转换 概率 和 词 长 期 待 共同 
影响 统计 学 习 效 果 。 
41 转换 概率 和 词 长 期 待 对 统计 学 习 机 制 的 协 

司 影响 

转换 概率 是 统计 学 习 领 域 中 的 核心 概念 ， 其 思 
想 渊源 最 早 可 以 追溯 到 语言 学 家 哈里 斯 的 音素 分 
布 思想 (Harris，1954，1955)， 反 映 的 是 相 邻 音节 共 
现 的 可 能 性 。 由 于 目标 词 内 音节 同时 出 现 且 每 个 音 
节 只 出 现在 1 个 目标 词 内 ， 因 此 对 目标 词 来 说 ， 内 
部 2 个 或 3 个 音节 连接 紧密 ,很 可 能 作为 一 个 词 被 
头脑 表征 ， 相 反 ， 路 界 词 和 非 词 内 的 连接 强度 则 逐 
渐 降低 ， 因 此 被 以 词 为 单位 表征 的 可 能 性 较 小 。 基 
于 这 样 的 逻辑 关系 ,大量 统计 学 习 人 研究 都 证 实 ,， 个 
体 可 以 根据 音节 间 的 转换 概率 对 语 流 进 行 切 分 , 但 
以 往 研 究 中 迫 选 试 次 呈现 的 两 个 选项 不 仅 在 转换 
概率 上 存在 差异 , 在 人 工 语言 中 出 现 的 频次 也 存在 
差异 (Aslin et al., 1998; Shoaib et al., 2018; Thiessen 


件 下 的 目标 词 均 与 词 长 相同 的 非 词 进 行 迫 选 ,其 中 ， 
非 词 内 音节 的 转换 概率 为 0, 在 人 工 语 言 中 出 现 的 
频次 也 为 0， 因 此 在 这 两 个 条 件 下 实验 结果 的 任何 
差异 仅仅 来 自 于 不 同 的 转换 概率 。 本 实验 中 虽然 转 
换 概率 的 主 效应 未 达到 显著 水 平 , 但 事先 对 比 结果 
发 现 对 于 三 音节 迫 选 试 次 来 说 , 被 试 在 高 转换 概率 
的 条 件 下 的 学 习 效 果 更 好 ,这 提示 转换 概率 对 统计 
学 习 效果 的 影响 受 限 于 迫 选 任务 的 难度 。 

本 研究 同时 关注 词 长 期 待 对 统计 学 习 的 影响 。 
从 计量 语言 学 角度 来 看 两 音节 词 在 汉语 词汇 中 占 
据 主导 地 位 ， 而 且 有 学 者 指出 ， 普 通话 母语 者 对 汉 
语词 长 的 期 竺 是 一 种 主观 的 、 彰 律 上 的 预期 。 汉 胜 
利 (1996) 明 确 指出 ,“ 两 音节 ”更 容易 被 感知 成 词 ， 
而 超过 两 音节 的 组 合 则 不 易 被 感知 为 词 ， 甚 至 在 句 
法 上 被 判断 为 不 是 词 的 词组 ， 如 “ 踢 球 ” 也 常 被 母 
语 者 认为 是 词 , 这 体现 了 韵律 对 句法 的 压制 ( 汉 胜 
Al], 1996; IKE 等 , 2013)。 在 本 人 研究 中 ,发 现 被 试 
在 切 分 LTP AE PAA IB SEES, XEPE SE TÉ 
选 试 次 的 判断 效果 明显 好 于 三 音节 人 迫 选 试 次 ,这 说 
明 普 通话 母语 者 对 词 长 的 韵律 期 待 在 一 定 程度 上 
会 引导 统计 学 习 过 程 , 尤其 是 在 测验 任务 难度 较 大 
时 词 长 期 待 才 会 体现 出 实验 效应 。 同 时 ， 对 被 试 在 
4 种 条 件 下 的 迫 选 正确 率 进行 了 单 样本 T 检 验 发 现 ， 
只 有 在 完成 LIP 条件 下 的 三 音节 人 迫 选 试 次 时 , 被 试 
无 法 区 分 目标 词 和 非 词 。 在 这 种 条 件 下 ， 三 音节 词 
不 符合 被 试 的 词 长 期 待 ,并且 三 音节 目标 词 的 转换 
概率 较 低 ， 从 而 导致 学 习 效果 的 下 降 。 总 而 言 之 ， 
事先 对 比 和 事后 检验 均 证 明 两 个 因素 协同 影响 统 
计 学 习 的 过 程 。 

需要 指出 的 是 ,在 两 种 词 长 期 待 对 应 的 迫 选 试 
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次 中 ,两 音节 词 中 仅 包含 一 个 转换 概率 ， 而 三 音节 
词 中 包含 两 个 转换 概率 ， 虽 然 两 类 词 在 记忆 资源 的 
需求 上 有 所 不 同 , 但 笔者 认为 记忆 负担 不 是 导致 
LIP 条 件 下 三 音节 迫 选 试 次 正确 率 显 著 低 于 两 音节 
迫 选 试 次 的 正确 率 的 主要 原因 。 如 果 存 在 记忆 负担 
因素 的 影响 , 那么 , Æ HTP 条 件 下 三 音节 迫 选 试 次 


4.3 ”转换 概率 和 词 长 期 待 对 统计 学 习 机 制 的 影 
响 进 程 
早期 研究 者 多 关注 个 体能 否 利用 语言 中 的 概 
率 信息 这 一 自 下 而 上 形式 的 信息 来 实现 词 切 分 和 
语言 学 习 ， 却 很 少 关心 影响 因素 的 作用 发 生 在 统计 
学 习 机 制 的 哪些 阶段 。 统 计 学 习 范 式 采 用 的 是 “学 


正确 率 和 两 音节 迫 选 试 次 正确 率 也 应 该 存在 显著 
差异 , 但 实验 结果 显示 在 HTP 条 件 下 三 音节 和 迫 选 
成 绩 与 两 音节 人 迫 选 成 绩 没有 显著 差异 。 本 研究 的 方 
差分 析 结 果 显 示 ， 两 个 因素 的 主 效应 以 及 交互 作用 
均 未 达到 显著 水 平 , 尤其 是 HTP 条 件 下 被 试 正确 
率 为 0.614, LTP 条 件 下 的 正确 率 为 0.574。 这 与 
Bogaerts 等 (2016) 实 验 发 现 被 试 的 迫 选 正确 率 随 着 
TP 的 上 升 而 显著 上 升 有 所 不 同 ,可 能 的 原因 是 听 
觉 通路 比 视觉 通路 更 加 复杂 ,信息 视觉 输入 和 信息 
听觉 输入 的 过 程 不 同 , 在 听觉 感受 器 和 大 脑 皮 层 之 
间 存 在 着 更 多 的 环节 (Belliveau et al., 1991; Hudspeth, 
1989), 那么 ,以 相同 的 转换 概率 合成 两 种 模 态 下 
的 实验 材料 ,还 应 该 考虑 材料 呈现 时 间 和 学 习 时 长 
等 因素 。 
42 复杂 词 长 条 件 下 的 语音 统计 学 习 研 究 

在 以 往 研 究 中 ,研究 者 在 合成 人 工 语言 过 程 中 
普遍 都 使 用 同一 长 度 的 词 ， 比 如 三 音节 (Antovich & 
Estes, 2017; Estes et al., 2015; Estes & Lew-Williams, 
2015) 或 两 音节 (Mirman et al., 2008; Gómez et al., 


习 - 再 认 ” 这 一 经 典 的 线 下 范式 ， 对 于 完成 迫 选 任务 
的 成 人 被 试 来 说 ， 每 一 个 目标 词 和 跨 界 词 都 会 多 次 
出 现在 迫 选 任务 中 ,因此 被 试 的 迫 选 结果 不 仅 来 自 
于 学 习 过 程 中 的 学习 效果 还 来 自 于 迫 选 任务 中 的 
二 次 学 习 效 果 (Siegelman, Bogaerts, & Frost, 2017; 
Siegelman, Bogaerts, & Christiansen et al., 2017). WF 
究 者 进一步 指出 统计 学 习 效 果 在 学 习 阶段 和 测试 
阶段 均 有 体现 ,在 学 习 阶 段 可 以 分 为 对 输入 信息 的 
感知 编码 (对 听觉 音节 和 视觉 图 片 的 初步 表征 )、 对 
分 布 信息 的 识别 (对 转换 概率 信息 的 加 工 ) 和 对 组 合 
单元 的 记忆 (将 切 分 出 来 的 音节 组 合 储存 在 短 时 记 
忆 中 ), 在 测试 阶段 表现 为 迫 选 任务 中 的 二 次 学 习 
(Siegelman, Bogaerts, & Christiansen et al., 2017)。 
在 本 研究 中 ， 对 于 学 习 LTP 人 工 语言 的 被 试 来 说 ， 
虽然 他 们 在 完成 两 种 迫 选 试 次 的 正确 情况 出 现 显 
著 差 异 , 但 由 于 在 每 个 迫 选 对 中 ,两 个 选项 的 长 度 
相同 , 均 为 两 音节 或 三 音节 ， 因 此 正确 率 上 的 差异 
是 来 自 于 学 习 过 程 中 对 两 类 词 的 切 分 效果 。 换 句 话 
说 , 虽然 本 研究 设计 了 自 下 而 上 和 自 上 而 下 的 两 种 


2017), 而 本 研究 则 选择 使 用 两 种 长 度 的 无 意义 词 
合成 人 工 语言 。 有 研究 指出 ,被 试 在 完成 统计 学 习 
任务 过 程 中 注意 资源 起 到 重要 作用 (Toro et al., 
2005)， 由 于 人 工 语 言 中 本 里 所 有 音节 时 长 固定 ， 
再 加 上 无 意义 词语 长 度 相 等 , 那么 随 着 学 习 过 程 
的 深入 ,根据 动态 注意 理论 (Jones & Boltz, 1989), 
被 试 会 形成 固定 的 节奏 预期 ， 从 而 提高 被 试 的 学 习 
效果 。Hoch 等 (2013) 通 过 对 比 被 试 学 习 等 长 词 (6 
个 三 音节 词 ) 合 成 的 人 工 语 言 和 不 等 长 词 (3 个 三 音 
节 词 和 3 个 两 音节 词 ) 组 成 的 人 工 语言 后 的 切 分 效 
果 ， 发 现 前 一 种 条 件 下 被 试 的 正确 率 显著 高 于 后 一 
种 情况 ; 535^ Johnson 和 Tyler (2010) 也 发 现 当 目 
标 词 包含 两 种 长 度 时 ,在 再 认 过 程 中 婴儿 无 法 分 
辨 目标 词 和 跨 界 词 ， 这 两 个 研究 都 说 明了 在 统计 
学 习 研 究 中 应 该 考虑 目标 词 长 度 一 致 性 对 学 习 效 
果 的 影响 。 本 研究 中 的 人 工 语言 由 3 个 三 音节 和 2 
个 两 音节 合成 , 不 仅 还 原 了 最 为 纯粹 的 语音 统计 学 
习 过 程 ， 还 实现 了 对 普通 话 母 语 者 词 长 期 待 因素 的 
考察 。 


信息 , 但 他 们 都 是 在 被 试 学 习 人 工 语言 过 程 中 引导 
被 试 切 分 语 流 。 我 们 推测 词 长 期 待 不 太 可 能 影响 头 
脑 对 输入 信息 的 编码 以 及 概率 信息 的 识别 , 更 可 能 
干扰 将 切 分 出 的 三 音节 目标 词 保 存在 记忆 中 的 过 
程 ， 即 符合 词 长 期 待 的 两 音节 目标 词 具有 更 高 的 保 
存 优先 级 。 不 过 , 不 同 语言 经 验 对 统计 学 习 影 响 的 
时 间 进 程 可 能 有 所 不 同 。Toro 等 (2011) 采 用 线 下 范 
式 发 现 语音 经 验 ( 音 系 规则 ) 并 不 影响 个 体 在 学 习 过 
程 利用 概率 信息 切 分 语 流 ， 反倒 是 影响 在 迫 选任 务 
中 的 再 认 。 除 了 词 长 期 待 以 外 ,也 有 学 者 关注 其 他 
语言 经 验 对 统计 学 习 效 果 的 有 影响， 比如 前 言 提 到 的 
词汇 知识 (Palmer et al., 2019; Poulin-Charronnat et 
al., 2016)、 儿 向 语 的 语气 和 语调 (Thiessen et al., 2005) 
等 。 今后 的 研究 除了 探讨 多 种 信息 对 统计 学 习 效 果 
的 影响 外 ,还 应 该 关注 不 同 信息 对 统计 学 习 机 制 影 
响 的 进程 和 强度 。 


5 结论 


转换 概率 是 统计 学 习 中 的 核心 概念 ， 两 音节 词 
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长 期 待 是 普通 话 母 语 者 典型 的 语言 经 验 ， 本 研究 考 
察 这 两 个 因素 是 否 会 影响 个 体 的 语音 统计 学 习 效 
R, 结果 发 现 转换 概率 和 被 试 的 词 长 期 待 协 同 影响 
语音 统计 学 习 的 效果 , 体现 了 自 下 而 上 信息 和 自 上 
而 下 信息 的 整合 。 
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Abstract 

Statistical Learning (SL) has long been established as a powerful mechanism in language learning and 
development. Within this framework, transitional probability (TP) of various levels have been shown to confer 
differing task performance for adults. Recent studies have also highlighted the role of linguistic experience in 
the process of SL. However, it remains unclear whether different word lengths as well as varying levels of TPs 
may impact the segmentation of continuous speech. 

Sixty native Mandarin monolinguals participated in a word segmentation task. An artificial language was 
designed with the same flat tone paired with 13 syllables, resulting in two disyllabic and three trisyllabic 
monotonic words. While only the segmental tier offered reliable information to segmentation, information from 
the suprasegmental level ensured that each word was phonologically legal in Mandarin. The words were then 
combined into two conditions of a monotonic artificial language: for the hTP language, all TPs within words 
were 1.0; whereas they were 0.6 in the ITP condition. Two types of nonwords (trisyllabic and disyllabic) were 
created for the test phase, then paired with target words of equal length in each trial. Adults were first exposed to 
the monotonic artificial language and then tested in a 2 alternative forced-choice task (2AFC) to decide whether 
a word or a nonword sounded more familiar. 

The mixed two-way ANOVA with word length (disyllables vs. trisyllables) as a within-subject factor and 
TP (high TP vs. low TP) as a between-subjects factor yielded nonsignificant effects for either word length or TP 
levels. There was also no significant interaction. A series of one-sample t-tests were conducted between the 
participants' average accuracy and chance level (.5). Participants preferred words over nonwords in most 
conditions except for trisyllabic contrasts in the low TP condition. Additional planned contrasts among the 
conditions revealed that when the TPs were low, participants performed significantly better in the disyllabic 
condition than in the trisyllabic condition; under the trisyllabic condition, high TP yielded better performance 
than low TP. 

In the low TP condition, the superior outcome of disyllabic contrasts might stem from the Mandarin 
speakers’ prior linguistic experience—their expectation that words should be of two syllables. For the trisyllabic 
contrasts, lower TPs may provide relatively weakened statistical regularities for tracking word boundaries, 
which may in turn lead to difficulty extracting words. Importantly, our findings show that when both factors 
present difficulties (e.g., trisyllabic contrasts in the low TP condition), such that the word length violates the 
listeners’ expectation and the TPs do not provide high levels of consistency, word segmentation can no longer be 
supported. The current study showed for the first time that when combining TP and word length in the speech 
material, these two factors impact word segmentation in a complex manner. This study offers new insight for 
future SL designs as well as potentially informative directions in exploring how individual differences based on 
linguistic backgrounds may manifest itself in word segmentation tasks. 

Key words verbal statistical learning, expectation for word length, transitional probabilities, prosody 


